查看原文
其他

华为Atlas900揭秘:集成数千颗昇腾910芯片,算力堪比50万台PC!

芯智讯浪客剑 芯智讯 2019-11-06



9月18日,华为副董事长胡厚崑在华为全联接大会上正式发布了基于昇腾910的全球最快的AI训练集群Atlas 900,预示着“AI计算”时代的全面加速。同时,华为还发布了基于昇腾的华为云EI集群服务,进一步释放AI算力,赋能产业。胡厚崑宣布,华为全栈全场景AI解决方案开始全面落地。


“AI计算”时代来临


众说周知,超级计算机是一个国家科研实力的体现,对国家安全、经济和社会发展具有举足轻重的意义,是国家科技发展水平和综合国力的重要标志。若算力不足,则很难维持科技发展的持续领先。


一直以来,中美都是超级计算机领域的主要争夺者,而且近年来,中国在超算领域的实力甚至是长期保持着力压美国一头的局面。自2013年以来,中国的“神威太湖之光”与“天河二号”长期霸占世界超级计算机Top 500的前两位。直到2018年,来自美国能源部下属橡树岭国家实验室的Summit超级计算机才重新夺回世界超级计算机Top 500的榜首。


今年6月17日在德国法兰克福举行的国际超级计算大会发布的最新全球超级计算机TOP 500名单显示,美国Summit超级计算机再度蝉联第一,中国超算“神威·太湖之光”和“天河二号”则在第三和第四位。


而Summit之所以能够接连夺得第一,主要是因为其是一款完全采用全新计算架构设计的超级计算机。众所周知,以往超级计算机都主要依靠的是大规模的CPU核心来进行计算,而Summit虽然也拥有一些IBM Power9 CPU,但却主要依靠GPU来进行计算,其内部部署了超过27000个Nvidia GPU芯片,在提供强大算力的同时,可支持机器学习和神经网络计算,可运行大量的AI应用程序。相比单纯采用CPU计算来说,利用GPU进行AI计算,性能可大幅提升,功耗也大大降低。


Summit采用这样的全新架构设计,一方面是为了进一步提升算力,另一方面则是为了应对越来越庞大的AI计算需求(超算始终是要为实际应用服务的)。


而作为计算的硬件载体,虽然CPU、GPU等都能够进行AI计算,但是相比之下,专用的AI芯片在性能、功耗、效率上表现更佳,这也是为何近年来不论是在云端AI芯片市场、还是在终端AI芯片市场,均呈现爆发式增长的关键。


我们可以看到,原来众多的数据中心都采用的是CPU来进行计算,而随着AI计算需求的增长,数据中心的计算架构开始转向CPU+FPGA以适应AI算法快速迭代的需求,或者采用CPU+GPU来进行大量的AI模型的训练,而随着AI算法开始趋于成熟稳定,以及相应的服务器对应的应用的明确,在云端的智能计算领域,CPU+专用的AI芯片的新的架构将成为主流。


华为杀入2万亿美元的蓝海市场


联接和计算被认为是智能世界的两大关键技术。过去30年华为在联接方面做出了非常出色的成绩,但是这并不意味华为只会做联接,华为在计算领域的投入也已经有了10年,并且也取得了不错的成绩,比如面向移动终端的麒麟处理器、面向智慧屏的鸿鹄处理器、面向数据中心和云端的鲲鹏处理器等。



然而,正如前面所提到的,目前的计算模式正在不断演进,以机器学习、推理计算为代表的AI计算开始逐渐成为主流。数据显示,目前82%的企业已将AI直接应用于生产相关场景,并带来显著的效益提升(>15%)。40%的企业开始尝试将AI应用于认知与决策层。另有数据显示,到2025年,AI计算将占全球算力总量的80%以上。而2023年之时,全球计算产业的市场规模将高达2万亿美元。这也意味着AI计算的市场空间极大。



为了应对巨大的AI算力的需求,抓住2万亿美元的蓝海市场,胡厚崑表示,华为将坚定不移的对计算产业进行投入,特别是在AI计算方面。


胡厚崑表示,过去的计算主要是基于“规则”的计算,当下的AI计算已经开始转向基于“统计”的计算,而统计计算本身就是一种暴力计算,高度依赖于算力。为了让计算机认识一只猫,就需要数百万图片的训练,这对算力的消耗是非常惊人的,面向自动驾驶、天文探索、气象预测等更复杂场景,对算力的需求将会更大。传统的计算依赖于处理器的效率,依赖于摩尔定律的推进,但是随着摩尔定律接近极限,此时就需要新的计算架构来释放算力。此外,未来计算和智能将会无处不在,而不仅仅是分布在中心侧,所以端边云之间还需要高效的协同。因此,这也对智能计算提出了更高的要求。



所以,我们看到,在去年华为推出了基于自研达芬奇架构的训练和推理芯片-昇腾310和昇腾910,今年又将达芬奇架构的昇腾IP应用到了手机芯片麒麟810和麒麟990系列当中,强化了华为在终端侧的AI能力。而在今天华为全联接大会上,华为又正式发布了基于昇腾910的全球最快的AI训练集群Atlas900,进一步强化了华为在云端的AI计算能力。


全球最快的AI训练集群Atlas900


根据华为官方公布的资料显示,此次华为推出的Atlas 900由数千颗昇腾910内核互联组成,是全球最快的AI训练集群。



此前的资料显示,昇腾910作为目前单芯片计算密度最大的芯片,其AI性能更是远超谷歌TPU v2、谷歌TPU v3、英伟达V100等竞品。那么基于由数千昇腾910内核组成的Atlas900又将会有多强呢?


根据会上公布的资料显示,一个Atlas900集群的总算力将达到256-1024 PFLOPS@F16,相当于50万台PC的计算能力。

目前,华为已在华为云上部署了一个Atlas 900 AI训练集群,集群规模为1024颗昇腾910 AI处理器。根据为公布的数据显示,这样一个Atlas900集群在RestNet-50 v1.5及imageNet-1K网络下,精度为75.9%,在同等精度下,只需59.8秒就可以完成典型网络的训练,其他两家业界主流厂家测试成绩分别是70.2s和76.8s,在同等精度下,Atlas 900 AI训练集群比第2名快15%。



这里提到的“ImageNet-1k数据集”则包含128万张图片,而ResNet是近几年非常流行的卷积神经网络结构,其中50层的网络结构(ResNet-50)的效果优化,备受学术界和工业界关注。胡厚崑表示,RestNet-50是测试AI能力的金标准。


胡厚崑还举了一个天文学领域的例子,“要想实现对于超过20万颗星体进行扫描,并可实现对具体的星体进行定位,过去利用传统的计算系统加人工的方式,一个人需要169天的时间才能完成,而华为的Atlas900集群只需10.02秒即可完成”。足见Atlas900性能之强。



胡厚崑表示,Atlas900的强大算力,可广泛应用于科学研究与商业创新,比如天文探索、气象预测、自动驾驶、石油勘探等领域。



此外,华为还发布了基于Atlas 900的华为云EI集群服务,并以宣布将以极优惠的价格向全球科研机构和大学开放。进一步释放其强大的云端AI能力,赋能产业及合作伙伴。


与鲲鹏系列结合,发力Arm服务器市场


虽然当下英特尔的X86架构仍然在服务器市场占据垄断地位,但是得益于高能效、低功耗、低成本的优势,基于Arm架构的服务器市场也正在快速成长,国内的华为和飞腾已经成为了Arm架构服务器市场的中坚力量。


早在2004年华为就已经开始了Arm架构相关芯片的开发,覆盖华为多个产品线。今年1月7日,华为正式发布了业界最高性能的Arm架构服务器芯片——鲲鹏920(Kunpeng 920)以及基于鲲鹏920的三款TaiShan服务器、华为云服务。



鲲鹏920基于ARMv8指令集授权,由华为自主设计完成,主频可达2.6GHz,单芯片可支持64核,集成8通道DDR4,内存带宽超出业界主流46%。芯片集成100G RoCE以太网卡功能,大幅提高系统集成度。典型主频下, SPECint Benchmark评分超过930,超出业界标杆25%。同时,能效比优于业界标杆30%。鲲鹏920以更低功耗为数据中心提供更强性能。此外,鲲鹏920支持PCIe4.0及CCIX接口,可提供640Gbps总带宽,单槽位接口速率为业界主流速率的两倍,有效提升存储及各类加速器的性能。


至此,华为的Arm架构服务器相关产品已包括:Hi16系列CPU、鲲鹏系列Arm架构CPU 和TaiShan服务器。再加上可用于服务器端的云端AI芯片昇腾910,以及刚刚发布的基于昇腾910的全球最快的AI训练集群Atlas900,进一步强化了华为在云端及服务器市场的实力。而随着AI计算时代的来临,华为在服务器市场的竞争力将进一步被释放。


华为全栈全场景AI解决方案开始全面落地


早在去年10月的2018华为全联接大会(HUAWEI CONNECT)上,华为轮值CEO徐直军首次公布了华为的全栈全场景AI解决方案,并正式推出了基于自研的“达芬奇架构”的两颗AI芯片:算力最强的昇腾910和最具能效的昇腾310。



今年7月,华为又首次将基于达芬奇架构的昇腾IP引入到了针对智能手机市场的麒麟810处理器当中,并成功由荣耀9X智能手机首发商用。而麒麟810一经发布,便成功登顶AI Benchmark跑分榜,超过了高通骁龙855。


8月23日,华为正式宣布昇腾910成功商用,同时推出全场景AI计算框架MindSpore。徐直军表示:昇腾910、MindSpore的推出,标志着华为已完成全栈全场景AI解决方案(Portfolio)的构建,也标志着华为AI战略的执行进入了新的阶段。


9月6日,华为正式发布了麒麟990 5G芯片,其内部集成了全新的达芬奇架构NPU内核,由两个Ascend D110 Lite 和一个Ascend D100 Tiny核心组成,类似CPU大小核架构。这样做的好处在于,根据不同的AI模型的需要,调配相应的NPU来处理,能效更高。


华为表示,麒麟990 5G的AI性能相比此前的麒麟970提升了12倍,相比麒麟980大约提升了6.7倍,ETH 3.0跑分高达76206分,达到了高通骁龙855的2.78倍。堪称最强移动AI处理器。



随后麒麟990 5G也成功登顶AI benchmark跑分榜,AI跑分高达76206,是第二名的两倍之多,远超其它SoC。而很快,搭载麒麟990 5G的华为Mate 30系列智能手机也将正式发布。


从去年10月,华为自研的达芬奇架构的昇腾910/930系列AI芯片的正式发布,到今年8月商用落地(基于昇腾芯片的Atlas系列板卡、模组和服务器已经上市),仅用了10个月的时间。而与此同时,华为还实现了针对云端的昇腾系列AI芯片的AI能力向手机终端侧的部署和商用落地。而此次,基于昇腾910的全球最快的AI训练集群Atlas900发布和基于昇腾的华为云EI集群服务的上线(在华为云上,提供了相应的推理和训练服务),则是华为进一步向更高端的云端市场的突破。至此,华为的AI解决方案实现了对于云端、边缘侧、终端侧的全面覆盖和商业落地。



而除了昇腾处理器系列IP和芯片之外,在AI应用方面,华为还提供了CANN(芯片算子库和高度自动化算子开发工具)、应用使能工具ModelArts及训练和推理框架MindSpore,实现了AI解决方案的全栈式覆盖。


携手合作伙伴,构建开放生态


虽然华为本身就是一个巨大的生态,不仅自己设计芯片,自己还做终端、系统等等,形成了一套完整的垂直整合的产业链。不过即便如此,华为也依然需要合作伙伴来共建生态。


而为了加速生态建设,早在2015年,华为就发布了沃土计划1.0版本,目前已经有了130万开发者,1400家Si。胡厚崑在今天的会上还公布了新的沃土计划,宣布将投入15亿美元,希望能够引起更多的开发者加入,目标是开发者数量提升至500万人,推动全球合作伙伴发展应用及解决方案。



此外,华为目前还积极与伙伴合作共同打造鲲鹏产业生态基地,目前已落地北京、上海、重庆、深圳、成都等城市,在平台搭建、人才培养、应用示范等领域全面开展合作。


在商业策略上(应该主要指的是云端),胡厚崑表示,将不会直接对外销售处理器,将以云服务和部件为主面向客户,优先支持合作伙伴发展整机。同时,华为还将投资板卡、服务器、操作系统、数据库、编译器等关键技术和产品,打通生态全链条,完成系统级验证,帮助合作伙伴更好地销售整机。


胡厚崑强调,华为将会坚持板卡、模组等硬件开放,软件开源。“华为不做应用,但是会投入团队,做好工具,帮助合作伙伴做应用和迁移”。


“未来计算将无处不在,智能也将无处不在。人工智能时代,需要一个能够支持全场景智能计算的新架构,这是当前计算产业发展面临的巨大挑战。但是,有挑战,有困难,也意味着机会越大。华为善于走远路,善于用最好的技术解决最难的问题,把不可能变成可能,为合作伙伴打开空间。华为希望与大家一起开启新的航海时代,探索计算产业新的机会,携手合作共赢。我们希望是千帆竞发,而不是孤帆前行。”胡厚崑最后总结说到。


作者:芯智讯-浪客剑

活动预告

芯智讯将于9月20日,在深圳南山举办第三届《生物识别技术与应用高峰论坛》。



注:具体活动议程以活动前一天公布的议程为准,活动行报名页面将实时更新,敬请关注。谢谢!



报名方式


1、直接扫描下方二维码报名:



2、点击文末“阅读原文”报名


3、通过小程序“活动芯球”报名


如有其他需求可直接通过以下方式联系我们

Email:yj@padnews.cn

电话:18620305740

    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存